IDN-Schwierigkeiten im konkreten Fall

(Stand März 2012)

Sie erreichen uns über http://cms.rallye-münchen-rußland-himalaja.de/ bzw. http://cms.rallye-muenchen-russland-himalaja.de/ — oder besser — sie sollten uns darüber erreichen.

Hier tritt das IDN-Problem mit den deutschen Umlauten in einer besonders skurrilen Form auf:
Die beiden meistverbreiteten Browser Firefox und Internet Explorer kommen mit dem “ü” zurecht, aber nicht mit dem “ß”. Natürlich haben wir die passende Transkriptionsdomain mit lauter ASCII-Zeichen auch reserviert und verwenden diese in allen eingebetteten Verweisen, auch wenn äußerlich etwas anderes sichtbar ist. Anklicken sollte also immer zum Ziel führen.

Bei diesem Kuddelmuddel handelt es sich nicht — wie man zunächst vermuten könnte — um technische oder logische Schwierigkeiten, sondern um rein netzpolitische Querelen. Irgendein Gremium hat nämlich vor ein paar Jahren beschlossen, das deutsche Sonderzeichen “ß” in Domainnamen nicht verwenden zu wollen, weil es dem kleinen griechischen Beta “β” zum Verwechseln ähnlich sähe und demzufolge für erfolgreiche betrügerische Angriffe, die auf Täuschung des Lesers beruhen, prädestiniert sei. Ein ziemlich bornierter Standpunkt wenn man bedenkt, daß von allen Schriften dieser Welt, die im Unicode verfügbar sind, sich sicher tausende Zeichen zum Verwechseln ähnlich schauen!

Die meisten Browser befolgen diese psychologisch-politische Empfehlung; der einzige mir bekannte Browser, der es richtig macht, ist Opera. Damit funktioniert auch die in richtigem Deutsch geschriebene Domain — zumindest in der Fassung für Linux und Windows; die Mobilversion für Symbian scheitert ebenfalls, iOS mit Safari (iPhone) konnte ich nicht testen (MacOS-X ebensowenig).

Die hier übliche Form des Umgangs mit IDN ist nameprep gefolgt von Punycode, worin zwar tausende von Zeichen erlaubt sind, aber ausgerechnet das „scharfe s” “ß” nicht! Es gibt aber noch einen Ausweg: die ACE-Kodierung ohne regulatorische Vorgaben! Sie lautet xn--rallye-mnchen-ruland-himalaja-5lc40g.de und man kann sie bei phlyLabs erzeugen.

Und das Tollste:

auf meinem Firefox funktioniert sie!
zurück zu → Rallye München–Rußland–Himalaja

Leider ist das auch kein Allheilmittel: der Konquerer auf meinem Debian-System zensiert trotzdem das „scharfe s” weg und macht ein „ss” draus. :-(
Der Internet Explorer 8 unter Windows XP zickt auch herum. Einen Selbstversuch zum Ausloten der Fähigkeiten der eigenen Software habe ich in einen → Blog-Kommentar mit 3 Kodierungsvarianten eingebaut.

Wikipedia:
Grundsätzlich sind alle Unicode-Zeichen in IDNs zulässig. Das „ß“ wurde als identisch mit „ss“ deklariert und bei der Normalisierung in ss umgewandelt, sodass zum Beispiel „Pleiße“ identisch war mit „Pleisse“. Ab dem 16. November 2010 (für Inhaber einer Domain mit ss schon vorher) ist es aber nach der geänderten Norm IDNA-bis möglich, separate Domains mit ß zu registrieren, und die Abbildung auf ss ist aufgehoben.
Schön wär's! Die Betonung liegt auf ‹grundsätzlich›.

Die Diskriminierung des „ß“ findet bei älteren Browsern somit im ‹nameprep›-Algorithmus und nicht in ‹punycode› statt. Statt des aktuellen Standards von 2008 wird derjenige von 2003 verwendet.

Man muß allerdings zugeben, daß die diskriminierende Ausnahme für das „ß“ nicht auf reiner Willkür beruht. Daß dieser Buchstabe etwas Besonderes ist erkennt man schon daran, daß es ihn nur als Kleinbuchstaben und nicht als Großbuchstaben gibt. Der Bedarf ergab sich möglicherweise beim Wechsel von der Frakturschrift zur Antiquaschrift im deutschen Druckgewerbe. Die Frakturschriften (gebrochenen Schriften) kennen bekanntlich zwei Formen des Buchstaben „s“: das „lange s = ſ“ und das „Schluß-s = s“, deren Verwendung von der Stellung des Buchstabens in einer Silbe abhängt. Um Platz beim Druck zu sparen und gleichzeitig die Lesbarkeit von Wörtern zu erhöhen, gibt es in gebrochenen Schriften viele Ligaturen. „ß“ wird vermutlich aus einer Ligatur von „ſ“ und „s“ oder „ſ“ und „z“ entstanden sein; letzteres erscheint vom Druckbild her wahrscheinlicher. Früher wurde statt der heute üblichen ss-Transkription nach Antiqua gelegentlich auch „sz“ verwendet.

    Wikipedia:
    Verschiedene typographische Ansätze für die Form des Antiqua-ß:
  1. Buchstabenkombination aus langem ſ und s (nicht als Ligatur),
  2. Ligatur aus ſ und s,
  3. Ligatur aus ſ und einem z, das wie in der Fraktur von der Form her wie eine 3 aussieht,
  4. eine Art Ligatur aus ſ und einer Art 3, so dass ein Zeichen entsteht, das einem griechischen kleinen Beta β ähnelt (eine Art Kompromiss aus 2. und 3.).
  5. Als das Deutsche vermehrt in Antiqua gesetzt wurde, übernahm man die deutsche ſz-Ligatur (4) aus der Fraktur und wählte bisweilen dieses Zeichen.
ß-ähnliche Ligaturen